Сайт Информационных Технологий

Система перевода медицинских документов с естественного на формализованный язык

О. В. Трояновская, Л. А. Манило

СПбГЭТУ, кафедра БМЭ и ОС, 197376, Санкт-Петербург, ул. проф. Попова, 5,

тел: +7 (812) 325-2527, E-mail: lam@bme.eltech.ru, tov@home.ru

Abstract — The system for interpretation of natural language medical documents into formal language to ensure their processing quality has been developed. The result of interpretation is a set of formal language strings. For this purpose a sample base with text fragments of 5000 medical history cases were studied. Two types of notions were extracted and put into thesaurus. The first type was defined as medical notions, the second one – as so called functional notions - aim to reflect the relationships between two neighbouring medical notions in a string. To execute interpretation process specialised language were suggested.

The system is designed to facilitate medical staff efforts to process documents. The system also helps to improve coding quality of patients’ medical records.

1. Введение

В настоящее время пришло осознание того факта, что системы искусственного интеллекта в медицине должны не заменять профессиональную деятельность врача в постановке диагноза и назначении лечебных процедур, а освобождать его от рутинных операций, которые занимают большую долю рабочего времени и мешают его основным обязанностям, связанным с обследованием и лечением больных [3]. Под рутинными операциями понимается, прежде всего, работа с различными медицинскими документами, в том числе и ведение историй болезни. Важность компьютерного сопровождения медицинской информации о пациенте возрастает также в связи с переходом медицинского обеспечения населения на страховую медицину и подготовкой возрастающего потока статистической отчетности.

Целью настоящей работы явилось создание интеллектуальной системы (ИС), позволяющей осуществлять перевод естественно-языкового (ЕЯ) содержания медицинских документов на формализованный язык для последующей обработки.

2. Пути решения проблемы

В основе функционирования ИС лежит компьютерное понимание ЕЯ содержания историй болезни пациентов в рамках ограниченной предметной области военной медицины.

Для правильного понимания необходимо, чтобы: 1) медицинский документ был изложен грамматически правильным языком, т.е. укладывался в определенные синтаксические ограничения, характерные для изучаемой предметной области; 2) понятия, встречающиеся в медицинских документах, присутствовали в базе знаний (БЗ) о предметной области.

Для построения модели медицинского документа была проанализирована обучающая выборка, которая содержала записи из пяти тысяч историй болезни, хранящихся в архиве Военно-медицинского музея. В ходе этого анализа было сделано заключение, что тексты обучающей выборки ограничены как по тематике, так и по разнообразию используемых лингвистических структур. Это позволяет утверждать, что язык медицинских документов является ограниченным подмножеством естественного языка, т.е. специализированным подъязыком, который в значительной степени отличается от обычного русского языка.

Отметим специфические черты текста истории болезни: 1) использование сложных грамматических конструкций, нестандартно построенных предложений; 2) описательный характер текста при полном отсутствии глаголов, с большим числом однородных прилагательных, относящихся к одному существительному; 3) нарушение типового порядка слов; 4) большое число сокращений; 5) использование различных терминов при обозначении одного и того же понятия.

3. Используемые средства

Для обеспечения перевода на формализованный язык в данной работе были использованы следующие средства: 1) тезаурус понятий; 2) грамматика языка медицинских документов; 3) язык отображения ЕЯ понятий медицинских документов в их формализованные эквиваленты.

При анализе обучающей выборки было установлено, что понятия, встречающиеся в медицинских документах делятся на два типа: 1) медицинские; 2) функциональные.

Понятия первого типа образуют классификацию медицинских понятий, которая составляет основу тезауруса и оформлена в виде лексико-морфологического словаря. Каждая словарная статья словаря помимо ЕЯ понятия, содержит его синонимы, родственные слова, сокращения, варианты написания. Словарь представляет собой экстенсиональную составляющую тезауруса. Интенсиональная составляющая тезауруса - это семантическая сеть (СС), которая, отражает все отношения, связывающие понятия предметной области друг с другом. Каждая статья словаря соединена ссылкой с определенным узлом СС, что позволило каждому ЕЯ медицинскому понятию словаря поставить в соответствие его формализованный эквивалент в виде обозначения узла СС. Понятия второго типа описаны дугами СС.

Таким образом, модель медицинского документ представлена в виде совокупности медицинских понятий, соединенных функциональными понятиями.

Рассмотрим, что представляют собой функциональные понятия. Они могут быть выражены как отдельными предлогами и причастиями, так и сочетаниями предлогов и следующих за ними существительных. Например:по”, “вследствие”, “в” <результате|виде|стадии|форме>, “с|со”, “без”, “на” <фоне>, “по” <типу|линии>, “после”, “осложненный”. В угловых скобках перечислены варианты контекста, в котором может встретиться предлог. Символ “|” означает логическое ИЛИ.

4. Грамматическая проверка документа

Обработка медицинского документа производится в три стадии. На первой стадии лексико-морфологического анализа каждой лексической единице текста ставят в соответствие морфологическую категорию и осуществляют подготовительные операции для проведения грамматического разбора. На стадии грамматического разбора формируют синтаксическую структура текста в виде одного или нескольких деревьев зависимости по числу анализируемых сегментов текста. Если обрабатываемый документ не отвечает синтаксису грамматики, то он изымается из дальнейшей обработки. Грамматически правильные сегменты поступают на стадию семантической интерпретации.

5. Семантическая интерпретация естественно-языковой информации

На этой стадии каждый сегмент текста истории болезни преобразуют в формализованное описание в терминах БЗ.

Формально, семантика некоторого языка, это множество смыслов данного языка, которое можно описать в виде:, где - множество смыслов, - интерпретирующее отображение языка в [1].

Примем за язык медицинских документов. Тогда каждый грамматически правильный сегмент текста – это цепочка языка . Элементы множества , т.е. значения (смыслы) этих цепочек являются, в свою очередь цепочками некоторого языка, который описывается формальной порождающей грамматикой.

Для получения формализованного описания содержания медицинского документа необходимо осуществить два вида отображения: 1) медицинского понятие в обозначение узла СС; 2) функционального понятия в тип отношения, которое связывает два медицинских понятия.

Языку, на котором формулируются медицинские документы, можно поставить в соответствие денотационную семантику, основанную на понятии интерпретация [2]. Интерпретацией , будем называть тройку , где - логическая функция, которая сопоставляет каждому ЕЯ медицинскому понятию формализованное понятие из БЗ, - логическая функция, которая ставит в соответствие каждому функциональному понятию определенный тип отношения, а - область интерпретации, т. е. все множество полученных грамматически правильных формализованных описаний.

Для перевода необходимо осуществить нормализацию медицинского документа, а затем произвести отображение ЕЯ медицинских и функциональных понятий в формализованные эквиваленты.

5.1. Нормализация документа

Нормализация применяется для приведения содержания медицинского документа к канонической форме для предотвращение различных неоднозначных ситуаций в ходе отображения.

Были разработаны четыре операции по нормализации фрагментов текста без искажения семантики: а) распространение, б) стягивание, в) упорядочивание (коммутация), г) эксплицирование (подразумеваемые слова переименовывают в явную форму). Каждой операции поставлено в соответствие, в порядке их следования, буквенное обозначение из следующего множества: {r, s, u, e}. Операции распространения и стягивания удовлетворяют дистрибутивному закону, а упорядочивания – коммутативному.

Приведем примеры, поясняющие результаты применения вышеперечисленных операций над фрагментами текста, где выражение, стоящее в левой части – это исходный текст, а в правой части – текст, полученный в результате выполнения операции.

Ушиб и сдавление головного мозга Ушиб головного мозга, сдавление головного мозга;

Закрытый многооскольчатый перелом головки левой плечевой кости со значительным смещением и подвывихом Закрытый многооскольчатый перелом головки левой плечевой кости со значительным смещением, с подвывихом;

Огнестрельное пулевое сквозное ранение правой ягодицы, проникающее в брюшную полость Проникающее в брюшную полость огнестрельное пулевое сквозное ранение правой ягодицы;

Множественные слепые и сквозные осколочные ранения правой голени, обширная гнойная рана ее Множественные слепые и сквозные осколочные ранения правой голени, обширная гнойная рана правой голени.

5.2. Отображения медицинских понятий в формализованные понятия

Алгоритм работы функции отображения медицинского понятия в формализованный эквивалент сводится к поиску статьи тезауруса, содержащей понятие, которое описано таким же набором слов, что и анализируемое понятие в документе, и записи соответствующего этой статье обозначения узла СС в результирующее формализованное описание.

Особое место в процессе отображения информации занимают медицинские понятия, относящиеся к морфологической категории “уточнение локализации”. Как правило, это малозначимые детали описания, с точки зрения задач, на решение которых ориентирована ИС. Дело в том, что при проектировании БЗ для того, чтобы формализованное представление медицинских документов не было перегружено мелкими деталями, задают определенный порог детализации, тем самым, достигая компромисса между полнотой описания документа, с одной стороны, и временем ответа системы на пользовательский запрос и объемом данных с другой.

Рассмотрим следующий фрагмент истории болезни: “ранение 3 и 4 пальцев левой кисти”. Понятие “палец” содержится в БЗ и связано с узлом, уровень которого ниже выбранного порога детализации. Поэтому лексическая единица, обозначающая данное понятие, занесена в категорию “уточнение локализации” без включения в формализованное описание. Вместо понятия “палец” в формализованное описание занесено обозначение более общего понятия, которое соответствует узлу-родителю, а именно, “кисть”. Таким образом, в БЗ установлена требуемая точность формализованного описания медицинского документа.

5.3. Отображение функциональных понятий в формализованные понятия

Как было показано выше, отношения, связывающие медицинские понятия, определяются функциональными понятиями. В процессе интерпретации последние отображаются в формализованные эквиваленты в соответствии с правилами отображения. Формулирование таких правил осложняется неоднозначностью выбора типа отношения и определяется рядом условий. Так, например, предлоги с’ и ‘сов зависимости от медицинского понятия, которое за ним следует, а также от вида лингвистической структуры текста могут интерпретироваться как два различных типа отношения. Все эти и другие условия, определяющие порядок отображения функциональных понятий, образуют язык отображения.

Таким образом, процесс перевода медицинского документа завершается представлением его в виде упорядоченной совокупности формализованных представлений понятий и отношений, которая отражает семантику этого документа.

6. Заключение

Система перевода позволяет значительно сократить затраты времени врачебного персонала на кодирование сведений о пациентах, а также повысить качество обработки медицинских документов путем перехода от неформализованной информации к формализованному описанию.

Литература

  1. Кузнецов О. П., Адельсон-Вельский Г. М. Дискретная математика для инженера. – М.: Энергоатомиздат, 1988. – 480 с.
  2. Тейз А., Грибомон П. Логический подход к искусственному интеллекту: от модальной логики к логике баз данных. – М.: Мир, 1998. – 494 с.
  3. Rosenthal D., Sokolowski R. Voice-enabled, structured medical reporting// IEEE Expert: Intelligent Systems and Their Applications. 1998, v. 13, № 1, P. 70-73

Site of Information Technologies
Designed by  inftech@webservis.ru.